Datenqualität durch inhaltsbezogene Referenzierung

نویسندگان

  • Franz Weitl
  • Burkhard Freitag
چکیده

Ein Aspekt der Datenqualität bei der Integration verschiedener Dokumentfragmente zu einem neuen Dokument ist die Korrektheit der inhaltlichen Bezüge zwischen den Fragmenten. Wir zeigen, wie mit Hilfe von ontologisch repräsentiertem Wissen über Struktur und Inhalt von Dokumenten inhaltliche Bezüge so spezifiziert werden können, dass ihre Korrektheit in dynamisch zusammengestellten Dokumenten automatisch geprüft werden kann. Im Unterschied zu existierenden Ansätzen wird eine beliebig skalierbare Präzision des Referenzierungsmechanismus bei gleichzeitiger Abstraktion von Implementierungsaspekten erzielt. 1 Einleitung und Problemstellung Ein großer Teil der Informationen im Web liegt in Form von Dokumenten vor. Unter WebDokument verstehen wir eine inhaltlich zusammengehörige Sammlung von Web-Seiten, die Information oder Wissen zu einem thematisch eingrenzbaren Bereich für bestimmte Zielgruppen strukturiert und zugänglich macht. Dokumente unterscheiden sich dadurch von anderen Daten, dass die in ihnen enthaltene Information kohärent [Se03] und zum großen Teil implizit, d.h. einer maschinellen Verarbeitung nicht direkt zugänglich, ist. Die Erstellung von Web-Dokumenten ist oft aufwendig und kostenintensiv. Deswegen ist beispielsweise im eLearning die Wiederverwendung und automatisierte, bedarfsgetriebene Zusammenstellung von Dokumenten eine zentrale Anforderung [HC01, HN00, Da01, Se03]. Bei der Fusion von Dokumentfragmenten aus verschiedenen Quellen muss die Dokumentkohärenz, eine Form der Datenqualität, sichergestellt werden [Se03]. Ein Aspekt der Dokumentkohärenz ist die Existenz inhaltlicher Bezüge wie Ausblick, Zusammenfassung, Rückblick, Wiederholung, Querverweis, Problembeschreibung und Motivation. Inhaltliche Bezüge sind in Fragmenten enthalten, deren inhaltliche Korrektheit oder Verständlichkeit davon abhängt, dass innerhalb des Web-Dokuments andere Fragmente mit bestimmten inhaltlich-strukturellen Eigenschaften vorhanden sind (vgl. [Se03]). Im Folgenden wird ein Ansatz zur automatischen Überprüfung der Korrektheit der inhaltlichen Bezüge in Dokumenten, welche Fremdressourcen einbinden, und zur automatischen Generierung inhaltsbasierter Navigationsstrukturen vorgestellt. Die Existenz globaler Ontologien im Web [NP01] erlaubt die Übertragung des hier vorgestellten Ansatzes auf andere Teilprobleme der Informationsfusion. Zunächst wird der Stand der Forschung in der Spezifikation von inhaltlichen Bezügen kurz

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Ein lernendes System zur Verbesserung der Datenqualität und Datenqualitätsmessung

Insbesondere in der Finanzdienstleistungsbranche kommt einer guten Qualität der Datenhaushalte bereits heute eine herausragende Bedeutung zu. Die Relevanz von qualitativ hochwertigen Daten wird durch neue gesetzliche Rahmenrichtlinien, wie z. B. Basel II, und durch Umbrüche in der Bankenund Versicherungslandschaft verstärkt. In dem folgenden Artikel wird ein System vorgestellt, das Datenqualitä...

متن کامل

Harmonisierung der schweizerischen Primärsektordaten mittels eines Enterprise Service Bus mit einer "Service Oriented Architecture" (SOA)

Innerhalb des Programms „Agrarsektoradministration 2011“ wird ein gesamtheitliches und zukunftsgerichtetes Agrarinformationssystem für Bund, Kantone, Privatwirtschaft und Landwirte in der Schweiz entwickelt. Eine Voranalyse hat aufgezeigt, dass die Prozesse und Abläufe im Agrarsektor in der Schweiz gut eingespielt sind, die Systemlandschaft jedoch durch Heterogenität, Medienbrüche und noch verb...

متن کامل

Professionelles Testmanagement in Datenreinigungsprozessen

In diesem Beitrag wird das Testmanagement bei Maßnahmen zur Qualitätsverbesserung in Datenbeständen behandelt. Hierbei fließen vorwiegend Erfahrungen aus Projekten bei Erstund Rückversicherungen, Rentenversicherungsträgern und in der öffentlichen Verwaltung ein. Dies sind Bereiche, in denen die Speicherung und Verfügbarkeit der Daten aus vielen Jahrzehnten notwendig ist. Naturgemäß werden diese...

متن کامل

Sprachgestützte mobile Felddatenerfassung in der Landwirtschaft und Agrarforschung - Softwareplattformen und Anwendungsbeispiele

Eine sprachgestützte Datenerfassungstechnologie für mobile Arbeitskräfte ist praxistauglich und bietet eine Reihe von ökonomischen und prozessbezogenen Vorteilen: Erhöhung der Datenqualität, drastische Reduzierung des Erfassungsaufwandes sowie Konzentration auf den wesentlichen Arbeitsinhalt. 1 Einführung anhand eines Anwendungsbeispiels Anhand eines kurzen Videos (ca. 1 min) wird in die Themat...

متن کامل

LMML - Eine XML - Sprachfamilie für eLearning Content

Das Learning Material Markup Language Framework [LMML] war bereits 1999 ein Pionier für den Einsatz von XML zur konzeptuellen und modularen Strukturierung von eLearning Content. Inzwischen gibt es neben der wachsenden Zahl von Mitgliedern der LMMLSprachfamilie weitere XML-Sprachen im Bereich Educational Modelling, einige davon mit anderem Fokus als LMML, z.B. Interoperabilität von Aufgaben und ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2004